The detection of state-sponsored trolls acting in information operations is an unsolved and critical challenge for the research community, with repercussions that go beyond the online realm. In this paper, we propose a novel AI-based solution for the detection of state-sponsored troll accounts, which consists of two steps. The first step aims at classifying trajectories of accounts' online activities as belonging to either a state-sponsored troll or to an organic user account. In the second step, we exploit the classified trajectories to compute a metric, namely "troll score", which allows us to quantify the extent to which an account behaves like a state-sponsored troll. As a study case, we consider the troll accounts involved in the Russian interference campaign during the 2016 US Presidential election, identified as Russian trolls by the US Congress. Experimental results show that our approach identifies accounts' trajectories with an AUC close to 99\% and, accordingly, classify Russian trolls and organic users with an AUC of 97\%. Finally, we evaluate whether the proposed solution can be generalized to different contexts (e.g., discussions about Covid-19) and generic misbehaving users, showing promising results that will be further expanded in our future endeavors.
translated by 谷歌翻译
以人为本的人工智能考虑了人工智能表现的经验。尽管丰富的研究一直在通过全自动或弱监督学习来帮助AI实现超人类的表现,但较少的努力正在尝试AI如何量身定制人类对人类首选技能水平的限制。在这项工作中,我们指导课程加强学习结果朝着首选的绩效水平,通过从人类的决策过程中学习而不是太困难也不容易。为了实现这一目标,我们开发了一个便携式交互式平台,使用户能够通过操纵任务难度,观察性能并提供课程反馈来在线与代理商进行交互。我们的系统高度可行,使人类可以训练大规模的增强学习应用程序,这些学习应用需要数百万没有服务器的样品。结果证明了互动课程对涉及人类在环的增强学习的有效性。它显示强化学习绩效可以成功地与人类所需的难度水平同步调整。我们认为,这项研究将为实现流动和个性化的适应性困难打开新的大门。
translated by 谷歌翻译
胜利预测对于了解电子竞技中的技能建模,团队合作和对接至关重要。在本文中,我们提出了GCN-WP,这是基于图形卷积网络的电子竞技的半监督胜利预测模型。该模型在一个赛季(1年)的过程中了解了电子竞技联盟的结构,并在另一个类似的联赛上做出了预测。该模型集成了有关比赛和玩家的30多个功能,并采用图形卷积根据他们的附近进行分类。与机器学习或LOL的技能评级模型相比,我们的模型可实现最先进的预测准确性。该框架是可以推广的,因此可以轻松地扩展到其他多人游戏在线游戏。
translated by 谷歌翻译
鉴于社交媒体消费的增加,估计社交媒体使用者的政治倾向是一个具有挑战性且越来越紧迫的问题。我们介绍了retweet-bert,这是一个简单且可扩展的模型,以估算Twitter用户的政治倾向。 retweet-bert利用转发网络结构和用户配置文件描述中使用的语言。我们的假设源于具有类似意识形态的人的网络和语言学的模式。 retweet-bert表现出对其他最先进的基线的竞争性能,在最近的两个Twitter数据集(COVID-19数据集和2020年美国总统选举数据集)中,达到96%-97%的宏观F1。我们还执行手动验证,以验证培训数据中不在培训数据中的用户的retweet-bert的性能。最后,在Covid-19的案例研究中,我们说明了Twitter上政治回声室的存在,并表明它主要存在于正确的倾斜用户中。我们的代码是开源的,我们的数据已公开可用。
translated by 谷歌翻译
为了从复杂的数据中提取基本信息,计算机科学家一直在开发学习低维表示模式的机器学习模型。从机器学习研究的这种进步来看,不仅计算机科学家,而且社会科学家也从中受益并推进了他们的研究,因为人类的行为或社会现象在于复杂的数据。为了记录这一新兴趋势,我们调查了最近的研究,该研究将单词嵌入技术应用于人类行为挖掘,建立分类法以说明被调查论文中使用的方法和程序,并突出显示最新的新兴趋势,将单词嵌入模型应用于非文本人类人类行为数据。这项调查进行了一个简单的实验,警告文献中使用的共同相似性测量,即使它们在总级别返回一致的结果,也可能产生不同的结果。
translated by 谷歌翻译
随着技术的最新发展,有关详细人类时间行为的数据已获得。已经提出了许多方法来挖掘这些人类动态行为数据,并揭示了研究和企业的宝贵见解。但是,大多数方法仅分析动作序列,并且不研究时空的信息,例如以整体方式进行动作之间的时间间隔。尽管动作和动作时间间隔是相互依存的,但将它们整合到不同的天性:时间和动作是一项挑战。为了克服这一挑战,我们提出了一种统一的方法,该方法通过跨期信息(时间间隔)分析用户行动。我们同时嵌入了用户的动作序列及其时间间隔,以获得动作的低维表示以及跨期信息。本文表明,提出的方法使我们能够使用三个现实世界数据集以时间上下文来表征用户操作。本文表明,动作序列和时空用户行为信息的明确建模实现了成功的可解释分析。
translated by 谷歌翻译
There is an increasing need in our society to achieve faster advances in Science to tackle urgent problems, such as climate changes, environmental hazards, sustainable energy systems, pandemics, among others. In certain domains like chemistry, scientific discovery carries the extra burden of assessing risks of the proposed novel solutions before moving to the experimental stage. Despite several recent advances in Machine Learning and AI to address some of these challenges, there is still a gap in technologies to support end-to-end discovery applications, integrating the myriad of available technologies into a coherent, orchestrated, yet flexible discovery process. Such applications need to handle complex knowledge management at scale, enabling knowledge consumption and production in a timely and efficient way for subject matter experts (SMEs). Furthermore, the discovery of novel functional materials strongly relies on the development of exploration strategies in the chemical space. For instance, generative models have gained attention within the scientific community due to their ability to generate enormous volumes of novel molecules across material domains. These models exhibit extreme creativity that often translates in low viability of the generated candidates. In this work, we propose a workbench framework that aims at enabling the human-AI co-creation to reduce the time until the first discovery and the opportunity costs involved. This framework relies on a knowledge base with domain and process knowledge, and user-interaction components to acquire knowledge and advise the SMEs. Currently,the framework supports four main activities: generative modeling, dataset triage, molecule adjudication, and risk assessment.
translated by 谷歌翻译
这项研究提供了一个新颖的框架,以根据开源数据估算全球城市的公共交通巴士的经济,环境和社会价值。电动巴士是替代柴油巴士以获得环境和社会利益的引人注目的候选人。但是,评估总线电气化价值的最先进模型的适用性受到限制,因为它们需要可能难以购买的总线运营数据的细粒和定制数据。我们的估值工具使用通用过境饲料规范,这是全球运输机构使用的标准数据格式,为制定优先级排序策略提供了高级指导,以使总线机队电气化。我们开发了物理知识的机器学习模型,以评估每种运输途径的能耗,碳排放,健康影响以及总拥有成本。我们通过对大波士顿和米兰大都会地区的公交线路进行案例研究来证明我们的工具的可扩展性。
translated by 谷歌翻译
有效的全球优化是一种广泛使用的方法,用于优化昂贵的黑盒功能,例如调谐参数,设计新材料等。尽管它很受欢迎,但鉴于其广泛使用,较少的关注来分析问题的固有硬度,重要的是要了解有效的全球优化算法的基本限制。在本文中,我们研究了有效的全球优化问题的最严重的复杂性,并且与现有的内核特异性结果相反,我们得出了一个统一的下限,以根据球的度量熵的指标,以实现有效的全局优化的复杂性在相应的繁殖内核希尔伯特空间〜(RKHS)中。具体而言,我们表明,如果存在确定性算法,该算法在$ t $函数评估中实现了任何函数$ f \ in s $ in s $ f \ in $ t $函数评估的次优差距,则有必要至少是$ \ omemega \ left(\ frac {\ log \ mathcal {n}(s(s(\ Mathcal {x})),4 \ epsilon,\ | \ | \ cdot \ cdot \ | _ \ iftty)} {\ log(\ frac {\ frac {r} {r} {\ epsilon {\ epsilon })}} \ right)$,其中$ \ mathcal {n}(\ cdot,\ cdot,\ cdot)$是覆盖号码,$ s $是$ 0 $ $ 0 $,RKHS中的RADIUS $ r $,并且$ s(\ mathcal {x})$是可行套装$ \ mathcal {x} $的$ s $的限制。此外,我们表明,这种下限几乎与常用平方指数核的非自适应搜索算法和具有较大平滑度参数$ \ nu $的垫子\'ern内核所获得的上限匹配,最多可替换为$ $ $ d/2 $ by $ d $和对数项$ \ log \ frac {r} {\ epsilon} $。也就是说,我们的下限对于这些内核几乎是最佳的。
translated by 谷歌翻译
对比度学习是视觉表示学习最成功的方法之一,可以通过在学习的表示上共同执行聚类来进一步提高其性能。但是,现有的联合聚类和对比度学习的方法在长尾数据分布上表现不佳,因为多数班级压倒了少数群体的损失,从而阻止了学习有意义的表示形式。由此激励,我们通过适应偏见的对比损失,以避免群集中的少数群体类别的不平衡数据集来开发一种新颖的联合聚类和对比度学习框架。我们表明,我们提出的修改后的对比损失和分歧聚类损失可改善多个数据集和学习任务的性能。源代码可从https://anonymon.4open.science/r/ssl-debiased-clustering获得
translated by 谷歌翻译